🦊Wan2.1 画像生成
👉 |
Wan2.1 画像生成
1フレームで動画生成する!
だけですが、もともと画像生成も機能に組み込まれているので、単なる動画生成AIの1フレーム生成よりもかなり性能が良い(らしい)です
ソース失念したものの、確か論文だったかに学習自体が「1フレームの画像を生成できるように学習→動画を生成できるように学習」としているようです。(おそらくHunyuanVideoなども似たような学習方法を取っていると思われる)morisoba65536.icon 静止画と動画両方で学習されているのと、VAEの設計も良いのかな?nomadoor.icon
最適なパラメータがわからないので暫定nomadoor.icon
text2image
https://gyazo.com/06f4d5ba628d9fbcd54782642fce3ff2
🟪text2video(14B)モデル
🟨text2ivideoのときと違い大きな解像度を使ったほうが良いらしい
できればフルHD(1920×1080)、VRAMが少ない場合はHD(1280×720)
🟩サンプラーによる違いが大きい
Euler + betaが現状安定?
https://gyazo.com/bb87f4b069d4330fae1be19b027f57d4
サンプラーをLCMにしないと動かないと思ってたけど、画像生成だとEuler + Betaでも動くnomadoor.icon
LCMより当然品質が良い
こちらSelf Forcing ではgradient_estimation or unipc サンプラー/ betaスケジューラーあたりでもおそらくうまくいくかとmorisoba65536.icon text2image + LoRA適用(Self Forcing + NAG)
https://gyazo.com/96d9a07eb2cfda85b9d6217afbc1e426
image2image (Self Forcing + NAG)
https://gyazo.com/a3d1ddc1abaffca510bc7779d91a4f11
🟪text2videoモデル
🟩denoiseの値を変更
VACE_depth (Self Forcing + NAG)
https://gyazo.com/13681d014239735b7764e8f4e08c8302
🟥VACE
DepthAnything v2で入力画像の深度マップを作成
画像と同じ大きさのマスクを作成し入力する
VACE_inpainting (Self Forcing + NAG)
https://gyazo.com/4f3ea9d93a7fec96cdcf81f8b6b4b13f
🟥VACEでinpaintingするときは、マスク部分を灰色(color: 8355711)で埋める必要がある
VACE_Reference (Self Forcing + NAG)
https://gyazo.com/2381235f46a83151f3b356a445091018
Referenceを使うのでそもそも余剰フレームが生成されるが、なおかつ5フレーム余分に生成しないと綺麗な画像にならない
🟥そのために、画像とマスクを5枚に複製
5フレーム生成しておいて画像生成と言えるかは(´ε`;)ウーン…nomadoor.icon